Cours 4 : estimation de variance par linéarisation

Paul Géhin

20 mars 2026

Linéarisation

  • Considérons :
    • une population \(\mathcal{U}\) de taille \(N\) et un plan de sondage \(p\).
    • un échantillon \(s\) obtenu grâce à \(p\).
    • une variable d’intérêt \(\{y_k\}\) et un paramètre d’intérêt de la forme \(\displaystyle f(t_y)\)
  • Nous avons vu que l’estimateur par subtitution \(\displaystyle f(\hat{t}_{y,\text{HT}})\) permettait d’estimer \(\displaystyle f(t_y)\).
    • Exemple : l’estimateur par subtitution de \(\log{t_y}\) est donné par \(\log{\hat{t}_{y,\text{HT}}}\).
  • Mais quel est la qualité de cet estimateur ?
    • Le calcul de l’espérance et de la variance de ces estimateurs n’est en général pas possible…
    • Utilisation d’approximation : méthode de linéarisation.
  • Solution : construire une variable \(\{\hat{u}_{k}\}\) telle que \(\mathbb{V}(f(\hat{t}_{y,\text{HT}})) \approx \mathbb{V}(f(\hat{t}_{u,\text{HT}}))\)

Linéarisation

  • Supposons de plus que \(f\) est régulière : \(f\) différentiable.
  • En utilisant un développement de Taylor (cas où \(f : \mathbb{R} \to \mathbb{R}\)): \[f(\hat{t}_{y,\text{HT}}) \approx f(t_y) + (\hat{t}_{y,\text{HT}} - t_y) f'(t_y)\]
  • Par passage à l’espérance : \[\mathbb{E}(f(\hat{t}_{y,\text{HT}})) \approx \mathbb{E}(f(t_y)) + \mathbb{E}((\hat{t}_{y,\text{HT}} - t_y) f'(t_y)) \approx \mathbb{E}(f(t_y))\] \(\to\) Si l’estimateur d’Horvitz-Thompson \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\) alors \(f(t_{y,\text{HT}})\) l’est approximativement pour \(f(t_{y})\).
  • Par passage à la variance : \[\mathbb{V}(f(\hat{t}_{y,\text{HT}})) \approx \mathbb{V}((\hat{t}_{y,\text{HT}} - t_y) f'(t_y)) \approx \color{red}{\mathbb{V}((\hat{t}_{ f'(t_y) \times y,\text{HT}}))}\]

Théorème 1 (Biais de l’estimateur par substitution) Si l’estimateur d’Horvitz-Thompson \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\) alors \(\mathbb{E}(f(\hat{t}_{y,\text{HT}})) - f(t_y) \approx 0\).

Linéarisation (2)

  • La variance d’un estimateur de la forme \(f(\hat t_{y,\text{HT}})\) est approximativement égale à la variance de l’estimateur du total de la variable \(u\) définie pour tout individu \(k, ~~ u_k = f'(t_y) \times y_k\) : \[ \mathbb{V}(f(\hat t_{y,\text{HT}})) \approx \mathbb{V}(\hat t_{u,HT}) \]
  • Intuitivement : la variance de \(f(\hat t_{y,\text{HT}})\) est approximativement la même que celle d’un estimateur d’Horvitz-Thompson pour une variable d’intérêt bien choisie \(\to\) rôle central de l’estimation du total.
  • La variable \(\{u_k\}_{k \in \mathcal{U}}\) est appelée variable linéarisée associée à \(f\).
  • Problème : cette variable est définie par pour tout individu \(k \in \mathcal{U} ~~ u_k = f'(\color{red}{t_y}) \times y_k \to\) il est donc nécessaire de connaître \(\displaystyle t_y = \sum_{k \in \mathcal{U}} y_k\) qui est inconnu.
  • Solution : estimer par subtitution la variable linéarisée \(\{u_k\}\).
    • Pour l’individu \(k \in \mathcal{U}\), \(u_k = f'(t_y) \times y_k\) sera estimé par \(\hat{u}_k = f'(\hat{t}_{y,\text{HT}}) \times y_k\).
  • La variable \(\hat{u}_k\) est la variable linéarisée estimée.

Théorème 2 (Estimation de la variance par linéarisation - cas unidimensionnel) L’estimateur de la variance par linéarisation d’une fonction d’intérêt de la forme \(f(t_{y})\) est donné par \(\displaystyle \hat{\mathbb{V}}_\text{lin}(f(\hat{t}_{y,\text{HT}})) = \mathbb{V}(\hat t_{\hat{u},HT})\)

Exemple de linéarisation - cas unidimensionnel

  • On suppose que l’échantillon \(s\) dont nous disposons est tiré selon un plan de sondage tel que pour tout individu \(k \in \mathcal{U}, ~ \pi_k > 0\) \(\to\) l’estimateur du total d’Horvitz-Thompson \(\hat{t}_{y,\text{HT}}\) est un estimateur sans biais de \(t_y\).
  • Dans cet exemple, la variable d’intérêt prend des valeurs strictement positives.
  • Nous souhaitons estimer \(\log{t_y}\) : un estimateur par subtitution est donné par \(\log{\hat{t}_{y,\text{HT}}}\).
  • Cet estimateur est approximativement sans biais pour \(\log{t_y}\) car \(\hat{t}_{y,\text{HT}}\) est sans biais pour \(t_y\).
  • L’estimateur de la variance par linéarisation est donné par \(\mathbb{V}(\hat t_{\hat{u},HT})\) où pour tout \(k \in \mathcal{U}\), \(\hat{u}_k = \frac{y_k}{\hat{t}_{y,\text{HT}}}\).

Il reste à utiliser les résultats propres au plan de sondage afin de déterminer un estimateur de la variance.

Linéarisation d’une fonction de plusieurs totaux

  • Il est possible d’utiliser cette approche pour des fonctions de totaux de plusieurs variables d’intérêt \(f(t_{y^1}, ..., t_{y^d})\)\(f : \mathbb{R}^d \to \mathbb{R}\) est une fonction différentiable.
  • Principe de subtitution : un estimateur de \(f(t_{y^1}, ..., t_{y^d})\) est donné par \(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})\).
  • Même idée : en utilisant la formule de Taylor \[ f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}}) \approx f(t_{y^1}, ..., t_{y^d}) + \nabla f(t_{y^1}, ..., t_{y^d})( \hat{t}_{y^1, \text{HT}} - t_{y^1} , ..., \hat{t}_{y^d,\text{HT}} - t_{y^d})^T \]
  • Il est possible d’obtenir l’approximation de la variance suivante : \[\mathbb{V}(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})) \approx \mathbb{V}(\nabla f(t_{y^1}, ..., t_{y^d}) ( \hat{t}_{y^1, \text{HT}} , ..., \hat{t}_{y^d,\text{HT}})^T) = \hat{t}_{u,\text{HT}}\]

où la variable \(\{u_k\}_{k \in \mathcal{U}}\) est définie pour tout \(k \in \mathcal{U}\) par \(u_k = \nabla f(t_{y^1}, ..., t_{y^d}) (y^1_k, ..., y^d_k)^T\)

  • \(u_k\) est la variable linéarisée associée à \(f\) \(\to\) même problème que dans les cas univarié : pas accès aux totaux.

Linéarisation d’une fonction de plusieurs totaux (2)

  • \(u_k\) est la variable linéarisée associée à \(f\) \(\to\) même problème que dans les cas univarié : pas accès aux totaux.

\(\to\) utilisation de la variable linéarisée estimée : \(\hat u_k = \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{y^d,\text{HT}}) (y^1_k, ..., y^d_k)^T\).

  • Estimation par subtitution : \(\hat{V}_\text{lin}(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})) = \mathbb{V}( \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d},\text{HT}}) ( \hat{t}_{y^1, \text{HT}} , ..., \hat{t}_{y^d,\text{HT}} )^T) = \mathbb{V}(\hat{t}_{\hat{u},\text{HT}})\)

Théorème 3 (Estimation de la variance par linéarisation) L’estimateur de la variance par linéarisation d’une fonction d’intérêt de la forme \(f(t_{y^1}, ..., t_{y^d})\) est donné par \(\displaystyle \hat{\mathbb{V}}_\text{lin}(f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d,\text{HT}}})) = \mathbb{V}( \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{{y^d},\text{HT}}) ( \hat{t}_{y^1, \text{HT}} , ..., \hat{t}_{y^d,\text{HT}})^T)\)

Exemple de linéarisation

  • Supposons que nous disposons de deux variables d’intérêt \(y^{(1)}\) (par exemple, la part de transferts sociaux) et \(y^{(2)}\) (par exemple, le revenu total) et que nous souhaitons connaître un estimateur du ratio des totaux \(R_{y^{(1)}, y^{(2)}} = \frac{t_{y^{(1)}}}{t_{y^{(2)}}}\).

  • L’estimateur par subtitution de \(R_{y^{(1)}, y^{(2)}}\) noté \(\hat{R}_{y^{(1)}, y^{(2)}, \text{sub}}\) est donné par \(\hat{R}_{y^{(1)}, y^{(2)}, \text{sub}} = \frac{\hat{t}_{y^{(1)},\text{HT}}}{\hat{t}_{y^{(2)},\text{HT}}}\) .

  • Cet estimateur est approximativement sans biais (le biais est d’autant plus faible que les estimateurs des totaux ont une faible variance et que la fonction d’intérêt ne fluctue pas trop - on suppose que pour tout \(k \in \mathcal{U}, \pi_k > 0\)).

  • Quid de la variance ?

    • Malheureusement, \(\mathbb{V}(\hat{R}_{\text{sub}}) = \mathbb{V}\left(\frac{\hat{t}_{y^{(1)},\text{HT}}}{\hat{t}_{y^{(2)},\text{HT}}}\right) \neq \frac{\mathbb{V}(\hat{t}_{y^{(1)},\text{HT}})}{\mathbb{V}({\hat{t}_{y^{(2)},\text{HT}})}}\)
    • Utilisation du principe de substitution.

Exemple de linéarisation (2)

  • \(f : (x,y) \in \mathbb{R} \times \mathbb{R}^* \to \frac{x}{y}\)

  • Pour tout \((x,y) \in \mathbb{R} \times \mathbb{R}^*\), \(\nabla f(x,y) = (\frac{1}{y}, \frac{-x}{y})\)

  • La variable linéarisée pour un individu \(k\) vaut donc \(u_k = \frac{y^{(1)}_k}{t_{y^{(2)}}} - \frac{t_{y^{(1)}}}{t_{y^{(2)}}^2} y^{(2)}_k = \frac{1}{t_{y^{(2)}}} (y^{(1)}_k - R_{y^{(1)}, y^{(2)}} y^{(2)}_k)\)

  • La variable linéarisée estimée pour un individu \(k\) vaut \(\hat{u}_k = \frac{1}{\hat{t}_{y^{(2)},\text{HT}}} (y^{(1)}_k - \hat{R}_{y^{(1)}, y^{(2)},\text{sub}} y^{(2)}_k)\)

L’estimateur de la variance par \(\mathbb{V}(\hat{R}_{y^1, y^2, \text{sub}})\) est approximativement \(\mathbb{V(\hat{t}_{\hat{u}, \text{HT}})}\)\(\hat{u}_k = \frac{1}{\hat{t}_{y^{(2)},\text{HT}}} (y^{(1)}_k - \hat{R}_{y^{(1)}, y^{(2)},\text{sub}} y^{(2)}_k)\).

Comment utiliser la linéarisation pour estimer la variance d’un estimateur par subtitution?

On souhaite obtenir une estimation de la variance de \(f(t^1_y,..., t^d_y)\)\(f : \mathbb{R}^d \to \mathbb{R}\)

  • Calculer un estimateur de la variance de l’estimateur du total d’Horvitz-Thompson pour une variable d’intérêt quelconque \(\{y_k\}\).
  • Calculer la variable linéarisée estimée \(\hat u_k = \nabla f(\hat{t}_{y^1,\text{HT}}, ..., \hat{t}_{y^d,\text{HT}}) (y^1_k, ..., y^d_k)^T\)
  • Utiliser l’estimateur de la première étape sur la variable linéarisée estimée.